기존 대체(Imputation) 방식의 한계를 극복하기 위해,
결측 정보를 학습에 직접 활용하는 Dynamic Feature Selection 알고리즘 연구
기존의 데이터 분석에서는 결측치를 평균이나 최빈값 등으로 대치(Imputation)하여 모델 성능을 높이려는 시도가 일반적입니다. 하지만 무조건적인 대치가 항상 정답은 아니며, 오히려 데이터의 패턴을 왜곡할 수 있습니다.
본 연구는 "특정 피처가 현재의 학습 단계에서 모델에 긍정적인가, 부정적인가?"를 판단하는 것에서 출발했습니다. 단순 대치 대신, 각 부스팅 라운드(Boosting Round)마다 피처가 모델 학습에 악영향을 미치는지 실시간으로 평가하고, 그 결과에 따라 피처 샘플링(Feature Sampling)을 동적으로 달리하여 예측 성능을 극대화하는 MissGBM 알고리즘을 제안했습니다.
▲ 대한산업공학회 발표 사진
MissGBM의 핵심은 GBDT 프레임워크 내에서의 동적 피처 제어입니다. 학습이 진행되는 매 단계(Round)마다 피처의 유효성을 검증하고, 이를 다음 트리의 학습 과정에 반영합니다.
각 부스팅 라운드에서 해당 피처가 손실 함수(Loss Function) 감소에 기여하는지, 아니면 오히려 노이즈로 작용하여 학습을 방해하는지를 정량적으로 판단합니다.
평가 결과에 따라, 학습에 악영향을 미치는 피처는 해당 라운드에서의 선택 확률(Sampling Probability)을 낮추거나 배제합니다. 반대로 유효한 피처는 적극적으로 활용함으로써, 결측치가 포함된 불완전한 데이터셋에서도 모델이 강건하게 학습되도록 유도합니다.
▲ missGBM 알고리즘
공개 데이터셋(Ion, Hotel, Adult)을 사용하여 실험한 결과, MissGBM은 기존의 단순 대치 방식이나 일반적인 GBDT 모델(XGBoost, LightGBM 등) 대비 노이즈에 대한 저항력(Robustness)이 우수함을 확인했습니다.
특히 결측 비율이 높은 피처들이 혼재된 상황에서도, 동적 샘플링을 통해 학습에 방해되는 요소를 스스로 필터링함으로써 안정적인 Accuracy와 AUC 성능을 유지하는 성과를 거두었습니다.
그러나 이는 제한된 데이터 셋과 시나리오 기반하고 있으며, 모델의 일반화 가능성과 실용화를 충족하기에는 부족한 부분이 존재했습니다. 이에 양쪽 분기 후보로 평가하는 방식에 그치지 않고, 결측 발생의 패턴 자체를 모델이 인식하도록 하는 것을 통해 결측 패턴 인식 능력을 강화하고 다양한 결측치 대체 모델의 방법론을 모델에 접목시켜 개선하는 것이 차후에 해당 연구의 확장이 될 것으로 보입니다.
▲ 기존 부스팅 모델 대비 MissGBM의 성능 유지율 비교